对话状态跟踪(DST)是对话系统的核心子模块,旨在从系统和用户话语中提取适当的信念状态(域槽值)。大多数先前的研究试图通过增加预训练模型的大小或使用其他功能(例如图形关系)来提高性能。在这项研究中,我们建议使用实体自适应预训练(DSTEA)进行对话状态跟踪,该系统在该系统中,句子中的关键实体受到DST模型的编码者的训练。 DSTEA通过四种方式从输入对话中提取重要实体,然后应用选择性知识掩盖以有效地训练模型。尽管DSTEA仅进行预训练而没有直接向DST模型注入更多知识,但它的性能比Multiwoz 2.0、2.1和2.2上最著名的基准模型更好。 DSTEA的有效性通过有关实体类型和不同自适应设置的各种比较实验得到了验证。
translated by 谷歌翻译
对话状态跟踪(DST)是端到端对话系统的关键组成部分的主要目的是构建一个响应真实世界情况的模型。虽然我们经常在普通对话期间不时改变我们的思想,但是当前的基准数据集没有充分反映这种出现,而是由过度简化的对话组成,其中没有人在对话期间改变主意。作为激发本研究的主要问题,``现在是当前的基准数据集足以处理休闲谈话,在某个主题结束后,一个人在哪一个改变主意?“'我们发现答案是”否“,因为只是注入模板 - 基于卷起的卷数显着降低了DST模型性能。当注射最简单的回转话语时,多发性的测试接头目标精度降低超过5℃。此外,在面对更复杂的回转情况时,性能变性恶化。然而,我们还观察到,当卷倒数被适当地包含在训练数据集中时,表现篮板呈现,这意味着问题不具有DST模型,而是与基准数据集的构造。
translated by 谷歌翻译
Developing robust and fair AI systems require datasets with comprehensive set of labels that can help ensure the validity and legitimacy of relevant measurements. Recent efforts, therefore, focus on collecting person-related datasets that have carefully selected labels, including sensitive characteristics, and consent forms in place to use those attributes for model testing and development. Responsible data collection involves several stages, including but not limited to determining use-case scenarios, selecting categories (annotations) such that the data are fit for the purpose of measuring algorithmic bias for subgroups and most importantly ensure that the selected categories/subcategories are robust to regional diversities and inclusive of as many subgroups as possible. Meta, in a continuation of our efforts to measure AI algorithmic bias and robustness (https://ai.facebook.com/blog/shedding-light-on-fairness-in-ai-with-a-new-data-set), is working on collecting a large consent-driven dataset with a comprehensive list of categories. This paper describes our proposed design of such categories and subcategories for Casual Conversations v2.
translated by 谷歌翻译
This paper presents a 1-D convolutional graph neural network for fault detection in microgrids. The combination of 1-D convolutional neural networks (1D-CNN) and graph convolutional networks (GCN) helps extract both spatial-temporal correlations from the voltage measurements in microgrids. The fault detection scheme includes fault event detection, fault type and phase classification, and fault location. There are five neural network model training to handle these tasks. Transfer learning and fine-tuning are applied to reduce training efforts. The combined recurrent graph convolutional neural networks (1D-CGCN) is compared with the traditional ANN structure on the Potsdam 13-bus microgrid dataset. The achievable accuracy of 99.27%, 98.1%, 98.75%, and 95.6% for fault detection, fault type classification, fault phase identification, and fault location respectively.
translated by 谷歌翻译
有效的探索对于具有稀疏奖励或高维状态行动空间的环境中的加固学习代理至关重要。基于国家访问的数量,好奇心和熵最大化的最新作品产生了固有的奖励信号,以激励代理人参观新颖的国家进行探索。但是,代理可能会因包含新颖但任务含量信息的传感器输入的扰动而分心,例如由于传感器噪声或背景变化。在这项工作中,我们通过对时间序列观察中的测试和压缩顺序预测信息进行建模和压缩顺序预测信息,介绍了为学习压缩和时间连贯表示的顺序信息瓶颈目标。为了在嘈杂的环境中有效探索,我们进一步构建了内在的奖励,这些奖励基于学习的表示,以捕获与任务相关的状态新颖性。我们得出了顺序信息瓶颈目标的变异上限,以实用优化,并提供了对派生的上限的信息理论解释。我们对一组基于图像的模拟控制任务进行的实验表明,与基于好奇心,熵最大化和信息获得的最新方法相比,我们的方法可实现更好的样品效率,以及对白噪声和自然视频背景的鲁棒性和鲁棒性。 。
translated by 谷歌翻译
自动检测视网膜结构,例如视网膜血管(RV),凹起的血管区(FAZ)和视网膜血管连接(RVJ),对于了解眼睛的疾病和临床决策非常重要。在本文中,我们提出了一种新型的基于投票的自适应特征融合多任务网络(VAFF-NET),用于在光学相干性层析成像(OCTA)中对RV,FAZ和RVJ进行联合分割,检测和分类。提出了一个特定于任务的投票门模块,以适应并融合两个级别的特定任务的不同功能:来自单个编码器的不同空间位置的特征,以及来自多个编码器的功能。特别是,由于八八座图像中微脉管系统的复杂性使视网膜血管连接连接到分叉/跨越具有挑战性的任务的同时定位和分类,因此我们通过结合热图回归和网格分类来专门设计任务头。我们利用来自各种视网膜层的三个不同的\ textit {en face}血管造影,而不是遵循仅使用单个\ textit {en face}的现有方法。为了促进进一步的研究,已经发布了这些数据集的部分数据集,并已发布了公共访问:https://github.com/imed-lab/vaff-net。
translated by 谷歌翻译
由于其不断增加的资源需求,在低资源边缘设备上部署深层神经网络是具有挑战性的。最近的研究提出了无倍数的神经网络,以减少计算和记忆消耗。 Shift神经网络是这些减少的最有效工具之一。但是,现有的低位换档网络不如其完整的精度对应物准确,并且由于其固有的设计缺陷,无法有效地转移到广泛的任务中。我们提出了利用以下新颖设计的光泽网络。首先,我们证明低位移位网络中的零重量值既不有用,也不简化模型推断。因此,我们建议使用零移动机制来简化推理,同时增加模型容量。其次,我们设计了一个新的指标,以测量训练低位移位网络中的重量冻结问题,并提出一个符号尺度分解以提高训练效率。第三,我们提出了低变化的随机初始化策略,以提高模型在转移学习方案中的性能。我们对各种计算机视觉和语音任务进行了广泛的实验。实验结果表明,光泽网络明显胜过现有的低位乘法网络,并可以实现全精度对应物的竞争性能。它还表现出强大的转移学习表现,没有准确性下降。
translated by 谷歌翻译
手语是人们表达自己的感受和情感的不同能力的窗口。但是,人们在短时间内学习手语仍然具有挑战性。为了应对这项现实世界中的挑战,在这项工作中,我们研究了运动传输系统,该系统可以将用户照片传输到特定单词的手语视频。特别是,输出视频的外观内容来自提供的用户图像,而视频的运动是从指定的教程视频中提取的。我们观察到采用最先进的运动转移方法来产生语言的两个主要局限性:(1)现有的运动转移工作忽略了人体的先前几何知识。 (2)先前的图像动画方法仅将图像对作为训练阶段的输入,这无法完全利用视频中的时间信息。为了解决上述局限性,我们提出了结构感知的时间一致性网络(STCNET),以共同优化人类的先前结构,并具有符号语言视频生成的时间一致性。本文有两个主要贡献。 (1)我们利用细粒骨骼检测器来提供人体关键点的先验知识。这样,我们确保关键点运动在有效范围内,并使模型变得更加可解释和强大。 (2)我们引入了两个周期矛盾损失,即短期周期损失和长期周期损失,这些损失是为了确保生成的视频的连续性。我们以端到端的方式优化了两个损失和关键点检测器网络。
translated by 谷歌翻译
在高风险任务中,对ML模型的依赖越来越多,引起了人们对公平违规行为的重大关注。尽管已经有一系列的工作来改善算法公平,但其中大多数都在相同的培训和测试分布的假设下。但是,在许多现实世界中,这种假设经常被违反,因为以前训练的公平模型经常被部署在不同的环境中,并且已经观察到这种模型的公平性会崩溃。在本文中,我们研究了如何转移分配变化的模型公平性,这是实践中普遍存在的问题。我们对公平模型在不同类型的分布变化下如何影响公平模型进行细粒度分析,并发现域移位比亚群体更具挑战性。受到自我训练在域移动下转移准确性方面的成功的启发,我们得出了一个足够的条件,可以转移群体公平。在它的指导下,我们提出了一种实用算法,其一致性正则化为关键组成部分。涵盖所有类型的分布变化的合成数据集基准,用于对理论发现的实验验证。关于合成和真实数据集(包括图像和表格数据)的实验表明,我们的方法在各种分布变化下有效地传递了公平和准确性。
translated by 谷歌翻译
在这项工作中,我们将解决方案介绍给Epic-Kitchens-100 2022动作检测挑战。提出了一阶段动作检测变压器(OADT)来对视频段的时间连接进行建模。借助OADT,可以同时识别类别和时间边界。在完成了从不同功能训练的多个OADT模型之后,我们的模型可以达到21.28 \%的动作图,并在操作检测挑战的测试集中排名第一。
translated by 谷歌翻译